Phương pháp luận cho thống kê suy luận Suy luận thống kê

Các trường phái khác nhau của suy luận thống kê đã được thành lập. Những trường phái này hay “mô hình” là không loại trừ lẫn nhau, và phương pháp làm việc tốt dưới một mô hình thường có những cách giải thích hấp dẫn dưới các mô hình khác nhau.

Bandyopadhyay & Forster[36] mô tả bốn mô hình: “(i) thống kê cổ điển hoặc thống kê lỗi, (ii) thống kê Bayes, (iii) thống kê dựa trên cơ sở likelihood and (iv) thống kê dựa trên thông tin của Akaikean và cơ sở thống kê Criterion”. Các mô hình cổ điển (hoặc thường xuyên), mô hình Bayes, va các mô hình dựa trên AIC được tóm tắt dưới đây. Các mô hình likelihood về cơ bản là một mô hình đại diện của mô hình AIC.

Suy luận phương pháp mẫu lặp

Bài chi tiết: Suy luận phương pháp mẫu lặp

Mô hình này hiệu chỉnh việc sản xuất của các mệnh đề (cần làm rõ thuật ngữ phức tạp) bằng cách xem xét (danh nghĩa) lặp lại việc lấy mẫu của bộ dữ liệu tương tự như một phương thức. Bằng cách xem xét các đặc điểm của mẫu theo mẫu lặp lại, các tính chất của bất kì đặc tính của mô hình suy luận thống kê có thể được mô tả - mặc dù trong thực tế định lượng này mang tính thách thức lớn.

Ví dụ về suy luận của mô hình

Giá trị p-value
Khoảng tin cậy

Suy luận mô hình, khách quan, và lý thuyết quyết định

Một cách giải thích mô hình suy luận (hoặc suy luận cổ điển) là nó chỉ được áp dụng trong các dạng của tần số xác suất, có nghĩa là các dạng lấy mẫu lặp lại từ một tổng thể. Tuy nhiên, cách tiếp cận của Neyman[37] phát triển một thủ tục dưới dạng xác suất thử nghiệm trước. Đó là trước khi thực hiện một thử nghiệm, một quyết định về một quy tắc cho đến một kết luận như vậy là xác suất đúng được kiểm soát một cách thích hợp: một xác suất như vậy không cần phải có mô hình hoặc giải thích mẫu lặp lại. Ngược lại, suy luận Bayesian hoạt động dưới dạng xác suất có điều kiện (tức là xác suất có điều kiện dưa trên dữ liệu quan sát), so với các xcs suất cận biên (nhưng với điều kiện dựa trên tham số chưa biết) được sử dụng trong các mô hình tiếp cận.

Các mô hình thủ tục thử nghiệm ý nghĩa và khoảng tin cậy có thể được xây dựng mà không liên quan đến chức năng tiện ích. Tuy nhiên, một số yếu tố mô hình thống kê, hư lý thuyết quyết định thống kê, để kết hợp các hàm hữu ích[cần dẫn nguồn]. Trong đó, mô hình phát triển của suy luận tốt nhất (ví dụ như tối thiểu sai số ước lượng không chệch, hoặc đồng nhất việc kiểm tra tác động sử dụng các hàm dự kiến, trong đó vai trò của hàm (tiêu cực) là hàm hữu ích. Hàm dự kiến cần phải được nêu rõ trong lý thuyết thống kê để chứng minh rằng một thủ tục thống kê có một thuộc tính tối ưu[38]. Tuy nhiên, hàm dự kiến thường phổ biến cho việc thống kê thuộc tính tối ưu: ví dụ, ước lượng trung bình không chệch là tối ưu dưới giá trị các dạng hàm dự kiến, trong đó họ giảm thiểu tổn thất dự kiến, và bình phương nhỏ nhất là ước lượng bình phương tối ưu dưới các hàm dự kiến sai số bình phương, trong đó giảm thiểu tổn thất dự kiến.

Trong khi đó các nhà thống kê sử dụng mô hình suy luận được chọn cho mình những tham số quan trọng, và các số liệu thống kê ước lượng/ kiểm tra sẽ được sử dụng, sự vắng mặt của các tiện ích rõ ràng hiển nhiên và phân phối trước đã hỗ trợ các thủ tục mô hình để trở nên rọng rãi được xem như “mục đích”[cần dẫn nguồn].

Suy luận Bayes

Các tính toán Bayesian mô tả mức độ tin cậy bằng cách sử dụng “ngôn ngữ” của xác suất, độ tin cậy này là có thể chấp nhận được, lấy tích phân của một, và tuân theo tiên đề xác suất. Suy luận của Bayes sử dụng khoảng tin cậy ở phía sau có sẵn như là cơ sở cho việc thực hiện các mệnh đề thống kê. Có luận cứ khác nhau để sử dụng cho phương pháp Bayesian.

Ví dụ về suy luận Bayesian

Khoảng thời gian đáng tin cậy cho lhoangr thời gian ước lượng
Các yếu tố Bayes để so sánh mô hình

Suy luận Bayesian, tính chủ quan và thuyết quyết định

Nhiều kết luận Bayesian không đồng nhất được dựa trên bản tóm tắt “bằng trực giác có cơ sở” của hậu nghiệm. Ví dụ, hậu nghiệm có nghĩa là trung bình và phương thức, khoảng mật độ hậu nghiệm cao nhất, và tất cả các yếu tố Bayes có thể được phát triển theo cách này. Trong khi chức năng tiện ích của người sử dụng không cần phải chỉ ra cho các loại suy luận này, các bản tóm tắt làm tất cả phụ thuộc (với một mức độ nào) về niềm tin trước khi công bố và thường được xem như là kết quả chủ quan. (Phương pháp xây dựng trước đó không yêu càu dữ liệu đầu vào bên ngoài đã được đề xuất nhưng chưa được phát triển đầy đủ).

Thông thường, suy luận Bayes được hiệu chỉnh với tham chiếu đến một tiện ích được nêu một cách rõ ràng, hoặc hàm dự kiến, các “quy tắc Bayes” là một trong những tối đa hóa mong đợi dự kiến, tring bình thông qua hàm dự kiến không chắc chắn. Hình thức suy luận Bayesian tự động cung cấp các quyết định tối ưu trong một ý nghĩa lý thuyết quyết định. Giả định được đưa ra, dữ liệu và tiện ích, suy luận Bayesian có thể được thực hiện cho bất kỳ vấn đề cơ bản, mặc dù không phải tất cả thống kê cần có một giải thích Bayessian. Các phân tích không phải là Bayesian chính thức có thể (logic) không liên tục, một tính năng của thủ tục Bayessian mà sử dụng phân tích phù hợp (ví dụ, có thể lấy tích phân từ một) là họ được đảm bảo để được chặt chẽ. Một số những người ủng hộ suy luận Bayes khẳng định suy luận phải trong phạm vi lý thuyết quyết định, và rằng suy luận Bayesian không nên kết luận với việc đánh giá, tổng hợp của độ tin cậy hậu nghiệm.

Suy luận dựa theo AIC

Bài chi tiết: Tiêu chuẩn thông tin Akaike

Đề mục này cần được mở rộng. Bạn có thể giúp bằng cách mở rộng nội dung của nó. (December 2014)

Các mô hình khác để suy luận

Chiều dài mô tả tối thiểu

Bài chi tiết: Chiều dài mô tả tối thiểu

Nguyên tắc chiều dài mô tả tối thiểu (MDL-Minimum description length) đã được phát triển từ ý tưởng trong lý thuyết thông tin[39] và lý thuyết mức độ phức tạp của Kolmogorov[40]. Nguyên tắc lựa chọn mô hình thống kê là nén dữ liệu một cách tối đa. Tiến trình suy luận không cần giả thuyết trái vơi quy luật hoặc không có căn cứ “cơ chế tổng hợp dữ liệu” hay các mô hình xác suất cho các dữ liệu, như có thể được thực hiện trong các mô hình phương pháp hoặc Bayesian.

Thuy nhiên, nếu một “cơ chế tạo ra dữ liệu” không tồn tại trong thực tế, sau đó nguồn của Shannon ở điểm bắt đầu theo thuyết mã hóa cung cấp các nguyên tắc mô tả chiều dài tối thiểu của dữ liệu, trung bình và tiệm cận[41]. Trong giảm thiểu chiều dài mô tả (mô tả phức tạp), MDL ước tính là đồng dạng để ước lượng Likelihood lớn nhất và ước lượng hậu nghiệm (sử dụng tối đa mức độ đo trong một hệ thống ưu tiên Bayessian). Tuy nhiên, MDL tránh các giả định rằng mô hình xác suất cơ bản được biết đến; nguyên tắc MDL cũng có thể được áp dụng mà không cần giả định, ví dụ như các dữ liệu phát sinh từ mẫu độc lập.[41][42]

Các nguyên tắc MDL đã được áp dụng trong lý thuyết mã hóa thông tin liên lạc trong lý thuyết dữ liệu, trong hồi quy tuyến tính[42] và trong khai thác dữ liệu.[40]

Việc đánh giá các tiến trình suy luận MDL thường dựa trên việc sử dụng kỹ thuật hoặc tiêu chuẩn từ lý thuyết tính toán phức hợp.[43]

Suy luận cơ sở so sánh

Bài chi tiết: Suy luận cơ sở so sánh

Cơ sở so sánh suy luận là một phương pháp tiếp cận các kết luận thống kê dựa trên xác suất chuẩn, còn gọi là “phân phối cơ sở so sành”. Trong việc tiếp theo, phương pháp này được gọi gọi là xác định các tính chất yếu, rất hạn chế trong các ứng dụng, và thậm chí là sai lầm[44][45]. Tuy nhiên lập luận này cũng giống như các cơ sở so sánh chỉ ra rằng[46] một phân phối tin cậy không phải là một phân phối xác suất hợp lệ, và vì điều này đã không có hiệu lực áp dụng cho các khoảng tin cậy, nó không nhất thiết phải làm mất hiệu lực của các kết luận rút ra từ luận điểm cơ sở so sánh.

Suy luận cấu trúc

Bài chi tiết: Suy luận cấu trúc

Phát triển ý tưởng của Fissher và Pitman 1938 – 1939[47], George A. Barnard phát triển “suy luận cấu trúc” hoặc “suy luận then chốt”[48], một cách tiếp cận việc sử dụng xác suất cố định về nhóm có mối quan hệ. Barnard đã trình bày lại lý lẽ sau suy luận chuẩn trên một lớp hạn chế của mô hình mà những thủ tục “cơ sở so sánh” sẽ được xác định rõ ràng và hữu ích.